Видео ютуба по тегу Weight Quantization

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models (Apr 2025)

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models (Apr 2025)

Seminar: AWQ-Activation-aware Weight Quantization for LLM Compression and Acceleration (06/12/2025)

Seminar: AWQ-Activation-aware Weight Quantization for LLM Compression and Acceleration (06/12/2025)

ICQuant: Index Coding enables Low-bit LLM Quantization

ICQuant: Index Coding enables Low-bit LLM Quantization

Sinq: нормализованное по Синкхорну квантование для низкоточных весов LLM без калибровки

Sinq: нормализованное по Синкхорну квантование для низкоточных весов LLM без калибровки

SINQ: Calibration-Free Low-Bit LLM Quantization

SINQ: Calibration-Free Low-Bit LLM Quantization

[ICCV 2025] Scheduling Weight Transitions for Quantization-Aware Training

[ICCV 2025] Scheduling Weight Transitions for Quantization-Aware Training

LLM Fine-Tuning 13: LLM Quantization Explained (PART 2) | PTQ, QAT, GPTQ, AWQ, GGUF, GGML, llama.cpp

LLM Fine-Tuning 13: LLM Quantization Explained (PART 2) | PTQ, QAT, GPTQ, AWQ, GGUF, GGML, llama.cpp

AMD Describes Quantization Techniques for Efficient Deployment of Large Language Models (Preview)

AMD Describes Quantization Techniques for Efficient Deployment of Large Language Models (Preview)

LLM Quantization Techniques Explained - GPTQ AWQ GGUF HQQ BitNet

LLM Quantization Techniques Explained - GPTQ AWQ GGUF HQQ BitNet

Behind the Stack, Ep 7 - Choosing the Right Quantization for Self-Hosted LLMs

Behind the Stack, Ep 7 - Choosing the Right Quantization for Self-Hosted LLMs

MICROSOFT'S WINA: WEIGHT INFORMED NEURON ACTIVATION FOR ACCELERATING LARGE LANGUAGE MODEL INFERENCE

MICROSOFT'S WINA: WEIGHT INFORMED NEURON ACTIVATION FOR ACCELERATING LARGE LANGUAGE MODEL INFERENCE

Scaling Law for Quantization Aware Training

Scaling Law for Quantization Aware Training

Ep 80: Scaling Law for Quantization-Aware Training

Ep 80: Scaling Law for Quantization-Aware Training

Как LLM выживают в условиях низкой точности | Основы квантования

Как LLM выживают в условиях низкой точности | Основы квантования

Momentum Episode 5: Quantization techniques for Large Language Models

Momentum Episode 5: Quantization techniques for Large Language Models

LLM Quantization Explained

LLM Quantization Explained

Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression

Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

Accumulator-Aware Quantization

Accumulator-Aware Quantization

DATE '25 - Column-wise Quantization of Weights and Partial Sums... (presented by: Jiyoon Kim)

DATE '25 - Column-wise Quantization of Weights and Partial Sums... (presented by: Jiyoon Kim)

inside tensorflow quantization aware training

inside tensorflow quantization aware training

8 bit optimizers via block wise quantization

8 bit optimizers via block wise quantization

how to quantize an llm with gguf or awq

how to quantize an llm with gguf or awq

awq for llm quantization

awq for llm quantization

quantization process

quantization process

Следующая страница»